Analisis Data Ecoli dengan KNIME#
Install KNIME di (https://www.knime.com/downloads)
Install conda-forge di (https://conda-forge.org/download/)
Install Driver Postgre di (https://jdbc.postgresql.org/download/)
Konfigurasi KNIME#
Konfigurasi miniforge prompt#
Analisis#
Ambil data dari database Postgre#
Drag node PostgreSQL Connector kemudian klik untuk menautkan dengan database anda, lalu Apply dan OK. Kemudian run agar node jalan hingga node selanjutnya.
Drag node DB Table Selector, sesuaikan nama scema dan nama Table di database anda kemudian Apply dan OK, disini saya menggunakan dataset Ecoli yang bisa diunduh dari https://archive.ics.uci.edu/dataset/39/ecoli
Menampilkan Data#
Drag node DB Reader untuk menampilkan data
Deteksi Missing Value#
Drag node missing value
Sambungkan Node DB Reader ke node missing value lalu run
Hasilnya kolom Missing Value nilainya 0 karena tidak ada missing value di data
Deteksi Outlier#
Drag node Numerik Outliers, konfigurasinya seperti gambar dibawah ini
Drag Node Rule Engine untuk menandai bahwa data adalah outlier atau bukan, outputnya Normal dan Outlier
Klik dan masukkan code untuk menandai tiap kelas di field Expression
MISSING $mcg$ OR MISSING $gvh$ OR MISSING $lip$ OR MISSING $chg$ OR MISSING $alm1$ OR MISSING $alm2$ OR MISSING $aac$ => "Outlier" TRUE => "Normal"
Drag node Color Manager untuk mewarnai data outlier dan normal
Pada field Color by .. pilih kolom flag_outlier
Ploting untuk deteksi Outlier#
Drag node Scatter plot (JavaScript) (Legacy)
Centang Create image at Outport
Pilih kolom untuk X axis dan Y axis
Penghapusan Outlier#
Drag node Raw Filter
Filter column: flag_outlier
Operator: Equals
Case matching: Case sensitive
Value: Normal
Filter behavior: Output matching rows lalu Apply
Jumlah data sebelum penghapusan Outlier adalah 336
Jumlah data setelah penghapusan Outlier adalah 319
Balancing data menggunakan SMOTE#
drag node SMOTE
konfigurasi :
class column : class
Nearest Neighbor : 5
Oversample minority classes ✅️
Apply
Visualisasi data setelah balance#
Drag node Value Counter dengan memilih column class lalu Apply
Drag node Bar Chart, pindah count di Exclude ke field Includes lalu Apply